from pyspark import SparkConf
from pyspark import SparkContext

if __name__ == '__main__':
    conf = SparkConf().setMaster("local[*]").setAppName("spark01")
    sc = SparkContext(conf=conf)

    # 第一种
    # lst = [1,2,3,4,5]
    # r = range(1,6)
    # rdd1 = sc.parallelize(r,1)

    # 第二种
    # rdd1 = sc.textFile('../data/test1.txt')
    rdd1 = sc.textFile('../data/')  # 读取所有data目录下的文件
    # rdd1 = sc.textFile('../data/*.txt') # 读取所有data目录下的txt文件
    print(rdd1.getNumPartitions())
    print(rdd1.collect())

    rdd1.saveAsTextFile('hdfs://mynode1:8020/output4/')
